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Модифткащя алгоритму побудови 
графа в алгоритм! Хамелеон 


В статье представлена модификация алгоритма Хамелеон. Алгоритм Хамелеон состоит из следующих 
этапов: построение графа, огрубление, разделение и восстановление. На каждом из этапов могут быть 
использованы различные подходы и алгоритмы. Рассмотрено 2 вида графов: симметричный (-пи граф 
и ассиметричный (-пи граф. 

Ключевые слова: кластеризация, алгоритм Хамелеон, построение графа, связность, 
К-ближайших соседей. 
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Введение 


На данный момент весьма активно исследуются различные методы кластеризации. 
Каждым из целого множества имеющихся методов можно получить различные раз- 
биения исходного множества. Выбор определенного метода зависит от типа желаемого 
результата. Производительность метода с определенными типами данных зависит от 
характеристик сервера и технических возможностей программного обеспечения, раз- 
мера множества. 
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В последнее время ведутся активные разработки новых алгоритмов кластериза- 
ции, способных обрабатывать сверхбольшие базы данных. В них основное внимание 
уделяется масштабируемости. Разработаны алгоритмы, в которых методы иерархи- 
ческой кластеризации интегрированы с другими методами. К наиболее актуальным 
алгоритмам относятся: ВЮ СН, СОКЕ, СНАМЕГЕОМ, КОСК [1]. 

Главной целью работы является исследование и улучшение этапа построения 
графа посредством оптимизации алгоритма выбора К при построении графа К бли- 
жайших соседей. 


Описание модифицированного алгоритма Хамелеон 


Хамелеон — это новый иерархический алгоритм, который преодолевает ограни- 
чения существующих алгоритмов кластеризации. Данный алгоритм рассматривает 
динамическое моделирование в иерархической кластеризации [2-5]. 

В алгоритме можно выделить следующие этапы: 

Хамелеон представляет объекты посредством часто используемого графа К-бли- 
жайших соседей (К-пеагез( пеНБог этарВ). В данной работе рассмотрено 2 вида гра- 
фов: симметричный К-пи граф и ассиметричный К-пи граф. При построении графа 
для каждой пары объектов измеряется «расстояние» между ними — степень похожести. 
Используются следующие меры: евклидово расстояние, квадрат евклидова расстояния, 
расстояние городских кварталов (манхэттенское расстояние), расстояние Минковского, 
расстояние Чебышева, степенное расстояние. 

На следующем шаге строится очередь из последовательно уменьшенных гипер- 
графов — стадия огрубления (Соагзепте Р®вазе). Для огрубления графов может быть 
применено несколько существующих алгоритмов: случайное паросочетание, паро- 
сочетание из тяжелых ребер (НЕМ), модифицированный алгоритм паросочетания 
тяжелых ребер (Мо4Шеа Неауу Едзе Мате — НЕМ*), паросочетание из наиболее 
тяжелых ребер (Веамез-е4ее такте), модифицированное паросочетание из наиболее 
тяжелых ребер НЕМ*+, паросочетание легких ребер (Та Е4ее МакЬше» (ГЕМ)), 
паросочетание из тяжелых клик (НСМ), сочетане тяжелых треугольников (Неауу- 
бапо]е такте (НТМ)), сочетание тяжелых схем (Неаме$( Зсвета МакЬте Н$М), 
сочетание гиперребер (Нурегедее Соагзепте НЕС), видоизмененное сочетание гипер- 
ребер (Мод#еа Нурегедэе Соагзепт» МНЕС), сочетание лучшего (первого) выбора 
(ЕЕ Сво1се Соагзепте ЕСС). 

На третьей стадии выполняется разделение огрубленного графа таким образом, 
чтобы было удовлетворено ограничение баланса и оптимизирована функция разде- 
ления. Разделение может быть выполнено следующими методами: покоординатное 
разбиение (Соог4тае Мезеа П15зесНоп (СМО)), деление сети с использованием кри- 
вых заполняющих пространство (Зрасе-ЯПпе Сигуе Тесбаче$), алгоритм возрастаю- 
щего графа (ССР), алгоритм возрастающего графа с учетом выгод (@ССР), уровневое 
ячеечное разбиение (ГеуеП7е4 Мезеа О1ззеспоп — ГМО), Зеед-Ото\/ Ызесйоп, Кег- 
п1ебап-Гли А]еогифт (КГ), ЕЁ9иссла апа МайВеузез. 

На четвертом шаге выполняется восстановление графа. Разделение огрубленного 
графа проецируется на следующий уровень исходного графа и выполняется алгоритм 
улучшения разделения (рагАйопте геЙпетепе а]еоги т). Улучшение графа произво- 
дится методами: Кегилевап-Гли А]еогифит (КГ.), Е4ассла апа МайБеузез, граничный КТ, 
и граничный ЕМ (Воипдагу КТ, ап Воипдагу ЕМ). 


«Штучний 1нтелект» 32012 481 


Шатовская Т.Б., Ляховец А.В., Каменева И.В. 


7ТШ 


На последней итерации Хамелеона определяется показатель схожести между 
каждой парой кластеров [6]. На основании данной меры наиболее близкие кластеры 
объединяются. 

В данной работе основное внимание будет уделено первому этапу — построе- 
нию графа. 


Определение К при построении К-пи графа 


При решении поставленной задачи при построении графа К должно быть выбрано 
таким образом, чтобы соблюдалось условие связности построенного графа. Граф на- 
зывается связным, если в нем для любых двух вершин имеется маршрут, соединяю- 
щий эти вершины. На практике применяется два принципиально различных порядка 
обхода, основанные на поиске в глубину и поиске в ширину соответственно. 

Поиск в ширину. Вначале все вершины помечаются как новые. Первой посеща- 
ется вершина а, она становится единственной открытой вершиной. В дальнейшем 
каждый очередной шаг начинается с выбора некоторой открытой вершины х. Эта 
вершина становится активной. Далее исследуются ребра, инцидентные активной вер- 
шине. Если такое ребро соединяет вершину х с новой вершиной у, то вершина у 


посещается и превращается в открытую. Когда все ребра, инцидентные активной 
вершине, исследованы, она перестает быть активной и становится закрытой. Если на 
данном этапе остались незакрытые вершины, то граф несвязный. 

Поиск в глубину. Главное отличие от поиска в ширину состоит в том, что при 
поиске в глубину в качестве активной выбирается та из открытых вершин, которая 
была посещена последней. Основной алгоритм тот же, что и в случае поиска в ширину, 
только нужно очередь заменить стеком, а процедуру ВЕ$ — процедурой РЕЗ. 

Общая оценка трудоемкости такая же, как для поиска в ширину — О(т+п) 


В каждом из алгоритмов есть возможность оперировать не вершинами, а ребрами, 
связывающими вершины. Существует два варианта алгоритма поиска в глубину. 
Поиск в глубину с вычислением глубинных номеров — рекурсивный и итеративный 
варианты. Но так как в данном случае вычисление глубинных номеров не является 
необходимым, эти алгоритмы не являются актуальными. Приведенные алгоритмы 
поиска в глубину и ширину так же могут быть реализованы с использованием рекур- 
сии, но в данном случае есть несколько ограничений и недостатков [7]. 

В худшем случае (при полном графе) рекурсивный алгоритм, перебирая все 
возможные ребра, будет вынужден вызвать основную процедуру (М№-1)/ раз. Велика 
вероятность, что при достаточно большом М№ произойдет переполнение оперативной 
памяти, которое вызовет ошибку. Кроме того, размеры квадратной матрицы смежности 
дают сильное ограничение на возможное количество вершин графа: не более 250. 

Итеративный же алгоритм переберет все ребра графа, которых может быть не 
более чем №*(№+1)/2. Следовательно, общая сложность алгоритма может быть приб- 
лизительно оценена значением №/8. Возможное количество вершин графа ограничено 
только максимальным размером линейного массива (32 000). 

Таким образом, значение К последовательно увеличивается, пока граф не станет 
связным. Так как данная операция трудоемка и длительна, она нуждается в оптимизации. 


Создание экспериментальных выборок 


Для проверки работоспособности метода необходимо большое количество выбо- 
рок. Отсутствие реального источника данных требуемого объема, разнообразия и 
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качества вынуждает обратиться к альтернативному источнику. Так как при исполь- 
зовании различных входных данных с определенными статистическими характери- 
стиками производительность и качество кластеризации может сильно отличаться, 
необходимо проводить анализ на синтетических выборках, созданных специально 
для данной задачи. Исследований в данной области немного, и все крайне специфичны 
для рассматриваемых задач. 

Существует ряд методов генерации экспериментальных данных, позволяющих 
провести анализ кластеризации систематически и последовательно. Такие генераторы 
используют параметризованные модели, которые создают реалистичные данные. 
Эти генераторы обучены на реальных данных. 

Неппег$ и ВипКе (2003) работали с образцами почерка. Ваша (2000) и Ваша 
(1993) работали с изображениями. Косег$ и др. (2003) работали с 2) изображениями 
белка. Ра\14оу и соавторы (2004) получали наборы данных, помечая текстовый контент 
из УМУ У.. (бикапь 1999). ОТР (ТБеодоп41$ и соавторы, 1999) и езКе и соавторы (2005) 
также занимались синтетическим созданием данных. ОЗТО моделирует броуновское 
движение. Существует ряд скрытых моделей Маркова (Н1Адеп МаКкоу Моде! — НММ) 
на основе генераторов данных. КасВКоузК1 и Киз51 (1998) продемонстрировали более 
общий алгоритм генерации образцов из признаков в пространстве, включая фоновый 
шум. Ре и ИГэапе (2006) занимались получением данных для неконтролируемого 
обучения и обнаружения выбросов. Уап 4ег У/ай и Вегпага (2007) демонстрируют 
полезность синтетических генераторов набора данных на основе различных плотностей. 

В статье Ушее Сваой, Мобаттаа А! Назап, Заее4 Зает и Моваттед 7. Хак 
«ЗРАКСГ: ЕЁЙаег( апа ЕЁесйуе 5Варе-Базеа Сауеппе» для тестов масштабируемости, 
а также для создания З)-данных написан собственный генератор кластеров, осно- 
ванный на фигурах. Для создания фигуры в 20 случайным образом выбирались точки 
на канве и добавлялись точки, которые формируют желаемую фигуру. Точкой отсчета 
для всех фигур являлась точка (0,0). 

Чтобы получить сложные фигуры, использовались фигуры, полученные враще- 
нием и смещением (круг, прямоугольник, эллипс, круговые полосы и т.д.). Генерация 34 
фигуры построена на 24 фигуры. Случайным образом выбираются точки для третьей 
координаты — если координаты х и у удовлетворяют фигуры, случайным образом 
выбирается <-ось в пределах заданного диапазона. 

Такой подход позволяет построить правдоподобные 34 фигуры, а не только 
несколько слоев 24 фигуры. Как и в случае 24, комбинируется вращение и смещение 
34 фигуры, чтобы получить более сложные фигуры — пример синтетических З4 данных. 
Как только созданы все фигуры, случайным образом добавляется шум (от 1% до 2%). 
Показанный на рисунке 34 набор данных имеет 100 000 точек, и 10 кластеров. 

В данной работе создание ЗО фигур выполняется посредством 34 $ тах $410. 
Данное приложение позволяет сгенерировать трехмерную фигуру необходимой плот- 
ности и с необходимым количеством точек. Далее фигура может быть экспортирована. 
Статистические характеристики полученной выборки будут зависеть от характера 
фигур, их размера, плотности и расположения. Данные параметры подбираются при 
создании фигур. Добавление шума в выборку производится непосредственно перед 
проведением анализа. 

Для проведения эксперимента данным методом было сгенерированно 50 выбо- 
рок с различными статистическими характеристиками. 

Возможно, не все выборки одинаково хороши для изучения и сравнения алго- 
ритмов кластеризации. Некоторые могут не иметь хорошо выраженную структуру 
кластеров, кластеры могут быть неоднородны, распределены различным образом. 
Все эти факторы влияют на качество работы алгоритмов. 
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Сгенерированные выборки — это достаточно простой и точный способ проведения 
эксперимента на большом количестве выборок с известными структурными характе- 
ристиками. Среди недостатков можно перечислить: 

— Зависимость сгенерированных выборок от программы генератора. Плотность 
и количество вершин может быть различным даже при одинаковых параметрах для 
генерации выборки. 

— Данный способ создания выборки позволяет создать набор с определенными 
характеристиками, но такие выборки не всегда могут иметь такую структуру. В неко- 
торых предметных областях все еще тяжело воссоздать структуру реальных данных 
при генерации выборки. 

Большое количество реальных выборок использовано в работе. Список ресурсов 
с реальными выборками представлен в табл. 1. Многие выборки не подходят для 
исследования в рамках данной работы количеством атрибутов или иными характери- 
стиками. Для некоторых множеств данных могут быть использованы не только мно- 
жества, но и подмножества. 


Таблица 1 — Ссылки на ресурсы с наборами данных для кластеризации 


Реоре Бр://реоре.зс.Ёзи.е4и/-]биткаг4аИ/Ча(азе$/Аабазе{$.Ви] 
У'еКа БЕр://меКа.\1К1зрасез.сот/Оа(а$е($ 
Со]огпе Отуегз Ку Бр://\у\у\у ап1-Коеш.4е/етеп/${ай$ик/Аажалидех.е. Вит 
э(апаага Чаёазе{$ Б@р://с$.1оепзии.Н/$1ри/Аавазе{5/ 
О $ аг БЕр://а1заса2 и15.еда/$аг/Чайа/сТаегтедаа.В ит] 
ОСГКОО Бр://КАа.1с$.ас1.еа/ 
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Построение математической модели 


Для оптимизации выбора начального параметра А при построении К-пи графа 
необходимо построить математическую модель зависимости К от характеристик обра- 
батываемой выборки. Математическая модель будет построена на основе исследования 
30 выборок. 

Математической моделью называется формальная система, которая представ- 
ляет собой конечное собрание символов и совершенно точных правил оперирования 
с этими символами в совокупности с интерпретацией свойств определенного объекта 
некоторыми символами, отношениями и константами 

Будем считать, что зависимости между параметрами задаются в виде следующего 
набора функций: И, =Е(Х\,Х,,..., К, а, а,...а {= , т), где \ - обозначения 


целевых параметров, Х -— обозначения управляемых параметров, а — обозначения 
неуправляемых параметров, т-— число целевых параметров, п- число управляемых 
параметров, К — число неуправляемых параметров. 

В данной работе управляемыми параметрами являются характеристики выборки, 
такие, как количество объектов в выборке, минимальные и максимальные значения 
матожидания, дисперсии и разброса. 

В результате была получена следующая матмодель: 


У = (1.06956е+008 - 605201*>х1 - 7121.75*х2 + 5.97909*х3 - 4.69129е-005*х4) / 
(2.89754е+007 - 234795*х5 - 1118.79*хб + х/. 
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Модификация алгоритма построения графа в алгоритме Хамелеон 


На рис. 1 представлено двумерное отображение описания данных матмоделью. 


Рисунок 1 - Описание данных математической моделью 


Анализ результатов 


Ключевые аспекты оценивания — это эффективность, надежность, простота и 
результативность. Расчет времени производился на 1.73 ОН ша (КВ) Репиит (В) 
Риа1 СРО с 208 памяти. 

Время производительности для разных графов может быть использовано для 
изучения масштабируемости алгоритма. Производительность зависит от количества 
вершин и ребер. 

Использование данной модели при построении графа в рамках модифициро- 
ванного алгоритма Хамелеон позволило сократить время построения графа до 16%. 
Использование модели особенно критично для больших выборок и больших значений 
матожидания и разброса. 
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Моасаноп ор Айеотийт [от Старй Сопятиспоп 


т ше Спатеёеоп Айвотийт 

Тодау, уегу аснуе!у шуезИгае уатои$ сазегие тефод$. 

КесепИу, пе\и са$егт? а!еогиип$ ФфаЁ сап Бап@]е ехшетеу ]агое дабаБазез аге 
асйуе!у деуор!э. 

ш Фе агасе то ФИсайоп оЁ Сватееоп а!еогИфит 1$ ргезещед. Тве Сватеёеоп 
а|>оги т соп315(5 ОЁ пехЕ $(асез: огарь БиПа, соагзепте, рагайопте ап4 ипсоагие. Оп 
еасВ оЁ Фезе $(асез АШетепЕ а[=ог1 тп ап4 арргоасВез сап Бе изе4. 

Тре тат соа| оЁ 1$ \УоГК 15 шуезиеайоп ап4 паргоуетепе этарб БиПА асе. ТЬ1$ 
сап Бе 4опе Бу то Йсайоп о? К з@есНоп а]гогифит дите К-ММ (К-МеагезЕ Ме1леВбог$) 
этарВ БиПА1э. 

У!е соп$14ег зуттевлс К-ММ отарВ апа азуттейлс К-ММ огарВ. 

Риние сопзбасйоп оЁ Фе отарб юг еасб раш оЁ обес теазигед фе "Ф@$апсе" 
Бебхееп Фет пате4 аз зипПагиу. \е сап изе фе юЮПо\ше теазигез: ЕисП4Аеап Ф$апсе, 
зацаге ЕасПАеап Ч$апсе, сиу Моск Ф@$апсе (МапВацап 41$%апсе), МшКо\зК! 41$апсе, 
СреБузВеу @запсе. ТВе пех %ер 1$ сопзбасноп оЁ а зассеззтуу гедисеЯ ВуреготарВ$ 
патед аз Соагзепте Р|Вазе. 

ш Фе фид чер ре огил$ Фе Ч1у1510п оЁ соагзепе отарВ ФаЕ зерагайоп Рапсйоп 
\а5 орНи1е4 апа Пти Ба]апсе \аз заяз Вед. 

Тре Гоип® ${ер 1$ отарВ гесоуету. 

ТБе зерагайоп оЁ соагзепе4 огарВ 1$ рго]есё ю Ше пех 1еуе| оГ Фе опешта! этарь 
ап4 Ше рагайопте гейпетеп( а|>огифт 1$ ехесшеа 


Статья поступила в редакцию 01.06.2012. 
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